最近的工作表明,视觉变压器(VTS)的注意力图在接受自学训练时,可以包含一种语义分割结构,在监督训练时不会自发出现。在本文中,我们明确鼓励这种空间聚类的出现作为一种培训正规化的形式,这种方式包括在标准监督学习中进行自我监督的借口任务。更详细地,我们根据信息熵的空间公式提出了一种VT正则化方法。通过最大程度地减少提议的空间熵,我们明确要求VT生成空间有序的注意图,这是在训练过程中包括基于对象的先验。使用广泛的实验,我们表明,在不同的培训方案,数据集,下游任务和VT体系结构中,提出的正则化方法是有益的。该代码将在接受后可用。
translated by 谷歌翻译
视觉变换器(VTS)作为卷积网络(CNNS)的架构范式替代品。与CNN不同,VT可以捕获图像元素之间的全局关系,并且它们可能具有更大的表示容量。然而,缺乏典型的卷积电感偏差使这些模型比普通的CNN更饥饿。实际上,嵌入在CNN架构设计中的某些本地属性,在VTS中应该从样品中学习。在本文中,我们明确地分析了不同的VTS,比较了他们在小型训练制度中的鲁棒性,并且我们表明,尽管在想象中训练时具有可比的准确性,但它们在较小数据集上的性能可能很大程度上不同。此外,我们提出了一种自我监督的任务,可以从图像中提取其他信息,只有可忽略不计的计算开销。这项任务鼓励VTS学习图像内的空间关系,并使VT培训在训练数据稀缺时更加强劲。我们的任务与标准(监督)培训共同使用,它不依赖于特定的架构选择,因此它可以轻松插入现有的VTS。使用与不同的VTS和数据集进行广泛的评估,我们表明我们的方法可以改善(有时显着地)VTS的最终精度。我们的代码可用于:https://github.com/yhlleo/vts-droc。
translated by 谷歌翻译
One of the major challenges in Deep Reinforcement Learning for control is the need for extensive training to learn the policy. Motivated by this, we present the design of the Control-Tutored Deep Q-Networks (CT-DQN) algorithm, a Deep Reinforcement Learning algorithm that leverages a control tutor, i.e., an exogenous control law, to reduce learning time. The tutor can be designed using an approximate model of the system, without any assumption about the knowledge of the system's dynamics. There is no expectation that it will be able to achieve the control objective if used stand-alone. During learning, the tutor occasionally suggests an action, thus partially guiding exploration. We validate our approach on three scenarios from OpenAI Gym: the inverted pendulum, lunar lander, and car racing. We demonstrate that CT-DQN is able to achieve better or equivalent data efficiency with respect to the classic function approximation solutions.
translated by 谷歌翻译
病变分割是放射线工作流程的关键步骤。手动分割需要长时间的执行时间,并且容易发生可变性,从而损害了放射线研究及其鲁棒性的实现。在这项研究中,对非小细胞肺癌患者的计算机断层扫描图像进行了深入学习的自动分割方法。还评估了手动与自动分割在生存放射模型的性能中的使用。方法总共包括899名NSCLC患者(2个专有:A和B,1个公共数据集:C)。肺部病变的自动分割是通过训练先前开发的建筑NNU-NET进行的,包括2D,3D和级联方法。用骰子系数评估自动分割的质量,以手动轮廓为参考。通过从数据集A的手动和自动轮廓中提取放射性的手工制作和深度学习特征来探索自动分割对患者生存的放射素模型对患者生存的性能的影响。评估并比较模型的精度。结果通过平均2D和3D模型的预测以及应用后处理技术来提取最大连接的组件,可以实现具有骰子= 0.78 +(0.12)的自动和手动轮廓之间的最佳一致性。当使用手动或自动轮廓,手工制作或深度特征时,在生存模型的表现中未观察到统计差异。最好的分类器显示出0.65至0.78之间的精度。结论NNU-NET在自动分割肺部病变中的有希望的作用已得到证实,从而大大降低了时必的医生的工作量,而不会损害基于放射线学的生存预测模型的准确性。
translated by 谷歌翻译
许多微体系式优化为深度神经网络解锁了巨大的处理能力,从而促进了AI革命。随着这种优化的精疲力尽,现代AI的增长现在是通过培训系统的性能,尤其是其数据流动的。我们没有专注于单个加速器,而是研究了全系统规模的大规模培训的数据移动特征。基于我们的工作量分析,我们设计了HammingMesh,这是一种新颖的网络拓扑,以低成本提供高的带宽,并具有很高的工作计划灵活性。具体而言,HammingMesh可以支持具有两个并行性的两个维度的深度学习培训工作的完整带宽和隔离。此外,它还为通用流量的高全球带宽提供支持。因此,HammingMesh将为未来的大规模深度学习系统供电,并具有极端的带宽要求。
translated by 谷歌翻译
基于强大的预训练语言模型(PLM)的密集检索方法(DR)方法取得了重大进步,并已成为现代开放域问答系统的关键组成部分。但是,他们需要大量的手动注释才能进行竞争性,这是不可行的。为了解决这个问题,越来越多的研究作品最近着重于在低资源场景下改善DR绩效。这些作品在培训所需的资源和采用各种技术的资源方面有所不同。了解这种差异对于在特定的低资源场景下选择正确的技术至关重要。为了促进这种理解,我们提供了针对低资源DR的主流技术的彻底结构化概述。根据他们所需的资源,我们将技术分为三个主要类别:(1)仅需要文档; (2)需要文件和问题; (3)需要文档和提问对。对于每种技术,我们都会介绍其一般形式算法,突出显示开放的问题和利弊。概述了有希望的方向以供将来的研究。
translated by 谷歌翻译
在现代纺织工业中,服装项目的质量控制是必须的,因为消费者对最高标准的意识和期望不断增加,以支持可持续和道德的纺织品。从原材料到盒装股票,可以通过检查产品在其整个生命周期中检查其质量水平。检查可能包括颜色阴影测试,紧固件疲劳测试,织物称重测试,污染测试等。这项工作专门针对成品中小零件给出的污染物的自动检测,例如原材料,例如小石头和塑料碎片或材料从施工过程中,例如整针或夹子。识别是通过对项目的X射线图像进行两级处理来执行的:在第一个中,多阈值分析识别灰度和形状属性的污染;第二层由一个深度学习分类器组成,该分类器经过训练,以区分真正的阳性和误报。由于结果满足了该过程的技术规范,即自动检测器成功地部署在实际生产工厂中,即小于3%的虚假负面因素和小于15%的虚假阳性。
translated by 谷歌翻译
深信仰网络(DBN)是随机神经网络,可以从感觉数据中提取丰富的环境内部表示。 DBN在触发深度学习革命方面具有催化作用,这是第一次证明在具有许多隐藏神经元层的网络中无监督学习的可行性。由于它们的生物学和认知合理性,这些等级架构也已成功利用,以在各种领域建立人类感知和认知的计算模型。但是,DBN的学习通常是以贪婪的,层次的方式进行的,这不允许模拟皮质回路的整体发展。在这里,我们提出IDBN,这是一种迭代学习算法,用于DBN,允许共同更新层次结构所有层的连接权重。我们在两组不同的视觉刺激上测试算法,我们表明网络开发也可以通过图理论属性来跟踪。使用我们的迭代方法训练的DBN实现了与贪婪对应物相当的最终性能,同时允许准确地分析生成模型中内部表示的逐步发展。我们的工作为使用IDBN进行建模神经认知发展铺平了道路。
translated by 谷歌翻译
本文介绍了Cerberus机器人系统系统,该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性,降解的感知条件以及缺乏GPS支持,严峻的导航条件和拒绝通信,地下设置使自动操作变得特别要求。为了应对这一挑战,我们开发了Cerberus系统,该系统利用了腿部和飞行机器人的协同作用,再加上可靠的控制,尤其是为了克服危险的地形,多模式和多机器人感知,以在传感器退化,以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划,反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力,表现出有效的探索,对感兴趣的对象的可靠检测以及准确的映射。在本文中,我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果,并讨论了为社区带来利益的教训所面临的亮点和挑战。
translated by 谷歌翻译
密切的人类机器人互动(HRI),尤其是在工业场景中,已经对结合人类和机器人技能的优势进行了广泛的研究。对于有效的HRI,应质疑当前可用的人机通信媒体或工具的有效性,并应探讨新的交流方式。本文提出了一个模块化体系结构,允许人类操作员通过不同的方式与机器人互动。特别是,我们使用智能手表和平板电脑分别实施了架构来分别处理手势和触摸屏输入。最后,我们在这两种方式之间进行了比较用户体验研究。
translated by 谷歌翻译